一句话介绍Bitahub:
这是一个拥有1000张GPU卡、为用户提供Linux程序排队执行的集群计算系统,后端使用Docker做虚拟化,擅长机器学习算法训练。
可以使用的计算资源类型:
卡类型 | GPU | CPU核心数量 | 内存(GB) | 价格(算力/小时) |
---|---|---|---|---|
GTX1080ti | 用户选择,1~8,记其为X | X * 4 | X * 16GB | X * 0.4 |
GTXTitanXp | 用户选择,1~8,记其为X | X * 4 | X * 16GB | X * 0.45 |
TeslaV100 | 用户选择,1~8,记其为X | X * 4 | X * 40GB | X * 0.9 |
RTX3090 | 用户选择,1~8,记其为X | X * 6 | X * 40GB | X * 1.1 |
无GPU_1 | 0 | X | X * 4GB | 0.02 |
无GPU_2 | 0 | X(≥16) | X * 14GB | 0.02 |
说明:(1)举例,申请2张RTX3090,将配套获得12个CPU计算核心和80GB的内存;(2)1算力=1元;(3)1080ti、titanxp、v100、无GPU_1服务器的CPU型号为Intel 5118;3090服务器的CPU型号为Intel 5218和Intel 5320;无GPU_2服务器的CPU型号为Intel 6330。
在BitaHub进行算法训练,需要:
- 上传数据集(如果使用公开数据集,则跳过);
- 上传模型(可选);
- 创建项目,并选择数据集,上传代码文件;
- 运行任务,设置运行参数;
- 查看运行结果;
这里先解释以上四个步骤中涉及的概念,具体的操作演练,会在第一个项目这个小节演示。
1. 数据集
平台提供了一些常用的科研数据集,可直接使用,称这部分数据集为公开数据集
。
进入系统后,点击数据集浏览。
支持用户维护私有数据集
,小于500M的数据集,可在网页端操作。更切确地说,网页端一次只能传500M,也可以多次传,但是,如果数据集较大,强烈推荐使用其他方式上传,见上传数据集。
2. 模型
类似于数据集
,BitaHub平台还有公开和私有的模型
,进入系统后,点击模型可浏览公开模型
。
同样有一次上传500M的限制。超额应对方法同数据集
。
模型
与数据集
的异同:从程序使用的角度,他们都是以文件夹进行组织的一系列文件;在存储配额上,模型则小得多,建议只在必要时存放训练完成的模型。
3. 项目
在BitaHub中,项目
是一个虚拟单位,用于将算法代码、关联的数据集/模型、运行的软件环境和配置组织起来。
创建项目时,可以选择需要的数据集或模型,并将相关的代码文件上传到项目中。
4. 任务
项目的某次训练,我们称之为一次任务
,一个项目可以包含多个任务。
任务的运行,需要配置运行参数,比如GPU类型、GPU个数、启动命令等。
任务提交后会进入
等待
状态,分配到资源后变为运行中
,结束后变为成功
或失败
,过程中停止则变为停止
。
5. 运行结果
某次任务运行过程中,系统会收集日志和任务输出,可以在任务详情页
查看。